语言预训练场景文本检测跨模态交互图像编码器预训练模型

提升场景文本检测器性能的视觉语言预训练方法

156810用于提升场景文本检测器的视觉语言预训练0宋思博 1 � 万建强 1 � 杨志波 1 唐军 1 程文青 2 白翔 2 姚聪 101 阿里巴巴达摩院 2 华中科技大学0{ sibosongzju,hustwjq,yangzhibo450,...

【自然语言处理】【多模态】多模态综述：视觉语言预训练模型

标签：自然语言处理计算机视觉多模态

多模态预训练模型综述、模型结构、损失函数、下游任务、CLIP

探索XModaler：跨模态预训练模型的新境界

探索XModaler：跨模态预训练模型的新境界项目地址:https://gitcode.com/YehLi/xmodaler 项目简介 XModaler 是一个开源项目，专注于研究和实现先进的跨模态预训练模型。该项目由耶鲁大学的研究团队发起，旨在通过...

Cross-modal Pretraining in BERT（跨模态预训练）

标签：多模态预训练跨模态

BERT以及BERT后时代在NLP各项任务上都是强势刷榜，多模态领域也不遑多让…仅在2019 年就有8+篇的跨模态预训练的论文挂到了arxiv上…上图是多篇跨模态论文中比较稍迟的VL-BERT论文中的比较图，就按这个表格的分类...

多模态预训练模型综述

标签：计算机视觉深度学习人工智能

本文就对多模态预训练模型做了整理，从多模态预训练大模型主要包括以下4个方面： 1.多模态众原始输入图、文数据表示：将图像和文本编码为潜在表示，以保留其语义 2.多模态数据如何交互融合：设计一个优秀架构来交叉...

COTS: 高效双流视觉语言预训练模型在跨模态检索中的应用

标签：文件跨模态检索双流方法协同工作图像-文本检索

最近，具有高推理效率的双流方法如CLIP和ALIGN也显示出有希望的性能，然而，它们仅考虑两个流之间的实例级为了克服这些局限性，我们提出了一个新的协同工作的两个流视觉语言预训练模型称为COTS的图像-文本检

万字综述！从21篇最新论文看多模态预训练模型研究进展

标签：大数据自然语言处理编程语言

作者|杨浩单位|阿里达摩院研究方向|自然语言处理背景在传统的NLP单模态领域，表示学习的发展已经较为完善，而在多模态领域，由于高质量有标注多模态数据较少，因此人们希望能使用...

【自然语言处理】【多模态】Product1M：基于跨模态预训练的弱监督实例级产品检索

标签：自然语言处理多模态实体匹配

Product1M：基于跨模态预训练的弱监督实例级产品检索《Product1M：Towards Weakly Supervised Instance-Level Product Retrieval via Cross-Modal Pretraining》论文地址：https://arxiv.org/pdf/2107.14572.pdf ...

自然语言处理——基于预训练模型的方法——第9章多模态融合的预训练模型

标签：自然语言处理机器学习人工智能

自然语言处理——基于预训练模型的方法——第9章多模态融合的预训练模型

[读论文]语言视觉多模态预训练模型 ViLBERT

标签：自然语言处理深度学习人工智能

图1.ViLBERT 模型由视觉（绿色）和语言（紫色) 组成，它们通过 co-attentional transformer layer 进行互动。这种结构允许每种模式有不同的深度，并通过共同注意力实现稀疏的互动。... 针对视觉和语言任务的预训练

视觉语言多模态预训练综述

标签：深度学习人工智能

一个综述，包括模型结构，预训练模型以及融合方法等

跨模态检索Retrieve Fast, Rerank Smart:Cooperative and Joint Approaches for Improved Cross-Modal ...

标签：跨模态检索深度学习论文阅读

目前最先进的跨模态检索方法是基于 Transformer 的架构，通过交叉...为了解决这些关键差距，实现改进和高效的跨模态检索，我们提出了一种新颖的微调框架，可将任何预训练的文本-图像多模态模型转化为高效的检索模型。

多模态预训练模型和对象关系：改进图像字幕

标签：跨模态文本视觉字幕佐治亚理工图像字幕视觉关系

117969除了预先训练的物体检测器之外：跨模态文本和视觉语境的图像字幕佐治亚理工学院郭家文albert. gatech.edu乔治亚理工大学[email protected]摘要视觉字幕已经取得了重大进展，主要依赖于预先训练的特征和后来的...

跨模态检索论文泛读：VisualSparta-利用加权的词袋进行大规模的文本到图像的检索

标签：人工智能深度学习 VisualSparta

VisualSparta，一个高效的跨模态检索模型，同时保证检索精度；该模型结合了预训练编码器和细粒度级别的打分方式；大规模的图像倒排索引使得检索非常高效，适合现实场景的跨模态检索。

视频图形转换器Transformer（VGT）：视频问答的动态推理与跨模态交互

标签：视频问答视频编码跨模态交互数据预训练

+v：mala2255获取更多论文用于视频提问的视频图形转换器Transformer肖俊斌1、 2、 3，潘周1，蔡达成2、 3，颜水成11海AI实验室2Sea-NExT联合实验室，新加坡3新加坡国立大学计算机科学系[email protected]，...

跨模态检索2023年最新顶会论文汇总

标签：计算机视觉人工智能深度学习

在本文中，我们提出了一种新的图像文本检索技术，被称为鲁棒的视觉语义嵌入（RVSE），它由新的基于图像和文本的增强技术组成，称为图像语义保护增强（SPAugI）和文本增强（SPAugT）。在全局和局部跨模态混合相似性的...

对齐和提示：视频与语言预训练的实体对齐模型

标签：对齐和提示视频与语言预训练单模态视频和文本特征视觉-语言对齐提示实体建模

0.960.020.470.440.610.3249530对齐和提示：带有实体提示的视频与语言预训练0Dongxu Li 1, 2，Junnan Li 1，Hongdong Li 2，Juan Carlos Niebles 1，Steven C.H. Hoi 101 Salesforce研究，2澳大利亚...

万字解读：预训练模型最新综述！

标签：大数据计算机视觉机器学习

↑↑↑关注后"星标"Datawhale每日干货&每月组队学习，不错过Datawhale学术作者：太子长琴，Datawhale意向成员如何在有限数据下训练出高...

少镜头字体生成的自监督跨模态预训练及编码器

标签：文件编号7905

7905XMP-Font：用于少镜头字体生成的自监督跨模态预训练刘伟*刘方月*非丁倩何自力字节跳动有限公司，北京，中国[email protected]@[email protected]@gmail.com...

超50篇论文串联起从VQA到多模态预训练大模型的前世今生—Part 2

标签：大数据自然语言处理计算机视觉

杨余久、酒井哲也）总体结构● VQA任务是什么●介绍之前的模型和方法● 欢迎来到Transformer的时代2019：尝试多模态表征2020：拥抱多模态表征2021：统一构架的探索● 下游任务（VQA等）● 更多其他有趣的论文本Part ...

【多模态大模型】BLIP-2：低计算视觉-语言预训练大模型

标签：人工智能

子问题: 如何提取并学习图像的特征表示，使之能够与文本有效结合，...之所以使用此解法，是因为冻结的图像编码器具有高质量的视觉表示，而Q-Former可以在不改变这些预训练模型的前提下，学习这些特征与文本之间的关联。

Paper：《Pre-trained Models for Natural Language Processing: A Survey自然语言处理的预训练模型综述》...

标签：自然语言处理 NLP 预训练模型

Paper：《Pre-trained Models for Natural Language Processing: A Survey自然语言处理的预训练模型综述》翻译与解读目录 Paper：《Pre-trained Models for Natural Language Processing: A Survey自然语言处理的...

LXMERT:从Transformers学习跨模态编码器表示LXMERT: Learning Cross-Modality Encoder Representations ...

标签：计算机视觉人工智能机器学习

接下来，为了赋予模型连接视觉和语言语义的能力，原论文通过五个不同的代表性预训练任务，使用大量图像和句子对模型进行预训练：masked语言建模，masked对象预测（特征回归和标签分类），跨模态匹配和图像问

跨模态检索最新高质量综述《Image-text Retrieval: A Survey on Recent Research and Development》

标签：人工智能深度学习论文阅读

为了与时俱进，我们还从第四个角度对跨模态预训练的ITR方法进行了开创性的概述。最后，我们概述了ITR的通用基准数据集和评估指标，并对有代表性的ITR方法进行了准确性比较。本文最后还讨论了一些关键但研究不多的...

大规模域内视觉和语言导航多样性数据集的预训练模型

标签：视觉语言导航大规模数据集预训练模型自然语言指令智能体导航

1634Airbert：用于视觉和语言导航Pierre-Louis Guhur1，Makarand Tapaswi2，Shizhe Chen1，Ivan Laptev1，...鉴于特定于领域的训练数据的稀缺性以及图像和语言输入的高度多样性，将VLN代理推广到看不见的环

大规模视频转录提高：跨模态学习与VL预训练模型的新进展

5036××利用大规模视频转录提高徐宏伟*，韩天凯*，曾艳红*，孙玉冲*，刘蓓，杨欢，傅建龙，郭柏宁微软亚洲研究院{v-...在本文中，我们提出了一个新的高分辨率和D-多样化的VIdeo-LA语言预训练模型（HD-VILA）的许多视

多模态AnyGPT——整合图像、语音和文本多模态大规模语言模型算法原理与实践

标签：语言模型人工智能自然语言处理

AnyGPT的核心在于使用离散表示法，可以在不改变现有大规模语言模型的框架和训练方法的情况下毫不费力地纳入新的模态。AnyGPT 的核心在于使用离散表示法，可以在不改变现有大规模语言模型的框架和学习方法的情况下...

跨模态检索论文阅读：IMRAM

标签：论文阅读深度学习跨模态检索

本文为了解决这一缺陷，提出了一种基于循环注意记忆网络的迭代匹配与循环注意记忆(IMRAM)方法，以渐进的方式探索图像和文本之间的细粒度对应关系，具有两个特点:(1)具有跨模态注意单元的迭代匹配方案，以对齐来自...

跨模态检索论文阅读：Context-Aware Attention Network for Image-Text Retrieval

标签：论文阅读计算机视觉深度学习

图像-文本双向检索在很大程度上依赖于每个图像-文本对的联合嵌入学习和相似性度量。先前的工作很少同时探索模态之间的语义对应和单一模态的语义关联。在这项工作中，我们提出了一个统一的上下文感知注意力网络工作...

多模态预训练模型简述

标签：机器学习深度学习人工智能

1.介绍让机器能以人类智能相似的方式作出反应一直是人工智能研究人员的目标。为了让机器能听会说、能看会认、能理解会思考，研究者提出...预训练模型的解决思路是，既然昂贵的人工标注难以获得，那么就去寻找廉价或者